Projet annonces emplois AAF

Anne-Laure Donzel

D’où vient cette idée ?

Ce projet est né d’une discussion avec Julien Benedetti, lors de laquelle nous avons partagé une impression, celle de voir le nombre d’offres d’emploi publiées sur le site internet croître de façon significative ces derniers mois. Il s’agissait d’un ressenti, et j’ai eu l’idée de “compter” les offres sur le site.

Ma première question était de savoir depuis quelle année nous pouvions encore trouver les annonces sur le site, et, la réponse a été : depuis le début de la publication d’offres d’emplois sur le site.

Il restait donc à les récupérer et à analyser le corpus constitué. C’était, également pour moi, l’occasion de mettre en pratique des compétences en cours d’acquisition.

Le point de départ a donc été une question lors d’une simple discussion informelle et l’envie de tester une méthode et des outils. Mais, chemin faisant, les résultats se sont avérés très intéressants et j’ai choisi de communiquer et diffuser ces éléments.

Méthodologie

Création du corpus

Sur le site de l’Association des Archivistes Français (AAF) se trouve un onglet “Emploi” sur lequel sont référencées des offres d’emplois.

L’AAF offre 2 possibilités de diffusion des annonces :

  • Les offres de stage et de CDD de moins d’un an sont diffusées gratuitement sur la liste de diffusion de l’AAF (réception par mail adressé aux membres de l’Association)

  • La publication des offres de CDI, de postes statutaires et de CDD longs est payante mais la diffusion est plus large car elle est faite sur le site de l’AAF et elle est relayée sur les réseaux sociaux et également sur la liste de diffusion.

[Les offres d’emplois] sont conservées trois mois en ligne, sauf demande de retrait de l’annonceur.

Les offres sont bien visibles durant 3 mois de façon simple, mais, elles restent accessibles sur le site. C’est à partir de cette liste que le corpus de données d’annonces a été constitué.

Les données ont été scrappées depuis le site et organisé en une liste sous forme de tableur. La première version du tableur, issue de l’extraction, contenait 3 colonnes :

  • L’employeur
  • L’intitulé
  • La date de diffusion sur le site

A l’extraction, le fichier comportait XXXX lignes.

Nettoyage et enrichissement du corpus

Nettoyage des dates de publication

A l’extraction la colonne comportant la date de publication comportait l’indication “(Annonce publiée le JJ mois AAA)”. Seule la date a été conservée.

L’employeur

La colonne avec le nom de l’employeur a été nettoyée et, dans la mesure du possible harmonisée.

Exemples

  • Les noms d’un même employeur ont été harmonisés.
  • Société A et A ont été regroupées sous un même nom.
  • Les “conseils généraux” ont été transformés en “conseils départementaux”
  • Dans certains cas c’était le service d’archives qui apparaissait comme employeur et dans d’autres cas la collectivité. Le regoupement c’est fait sous le nom de la collectivité.

Nettoyage des intitulés

Les intitulés des offres comportaient un grand potentiel d’analyse sémantique. Mais, pour cela, il fallait les nettoyer de tous les éléments facilitants la lecture et la compréhension par des humains :

  • Suppression du “recrute :” placé systématiquement en début d’intitulé.
  • Suppression des éléments d’écriture inclusive et plus largement des éléments redondants comme H/F placés sur toutes les annonces
  • Création un mot valise Earchiviste pour permettre le traitement du mot comme une entité à part entière

Multiplication des lignes

Dans certains cas de figure, une même annonce était passée pour plusieurs postes, dans ce cas, autant de lignes que de postes proposés ont été ajoutées au tableau.

Ajout d’éléments géographique

Le tableau initial a été enrichi de colonnes “Communes”, “Département”, “Pays”. Dans les cas où la localisation était évidente (par l’employeur ou par l’intitulé), l’ajout a été fait automatiquement et, dans le cas où ce n’était pas évident, l’ajout a été manuel.

Ajout du type d’établissement

Cet élément a été ajouté, il propose de catégoriser les employeurs.

Ajout du statut privé/public

Cet élément a été ajouté, il propose de catégoriser les types d’emplois.

Le corpus analysé

Dimension du corpus

Le corpus d’annonces se compose de 1377 annonces. Il couvre une période qui va de juin 2006 (date de la première annonce disponible sur le site de l’AAF) à la dernière annonce publiée en 2021.

Limites du corpus

  • annonces diffusées sur le site AAF
  • Ajout de certains éléments qui catégorisent plus les employeurs que les emplois par simplification
  • Manque des éléments plus poussés : part des CDI/CDD, les grades des emplois statutaires…

Les analyses

Analyse temporelle

Quelle est la répartition des annonces dans le temps ? Des annonces sont publiées sur le site de l’AAF depuis 2006. La première est une annonce publiée par Radio France en juin 2006.

Le nombre d’annonces par année

Le nombre d’annonces a connu une croissance générale, même si l’on peut remarquer certaines années de repli : 2009/2010, 2015 et 2020 du fait de la crise de la COVID19.

En 2021, 165 annonces ont été publiées sur le site de l’AAF.

Répartition des annonces par année et par type

La notion de “privé” ou “public” se rapporte à l’employeur et non à la forme du contrat proposé. L’analyse précise du type de contrat est très complexe et aurait nécessité d’éplucher chaque annonce.

Les employeurs publics sont les plus nombbreux a publier des annonces sur le site de l’AAF.

Répartition des annonces par type de structure et par année

Par année

Si l’on ventile le secteur public par catégories (type d’administration), la part des entreprises est la plus importante sauf entre 2009 et 2011.

Par type d’employeur

Classement des 20 annonceurs principaux

Analyse géographique

Part des annonces en France et à l’étranger

Pourcentage d’annonces par pays (hors France)

Carte des annonces publiées

Carte de la répartition par département

Analyse sémantique

L’analyse de mots porte sur les intitulés des annonces.

Nuage de mots

Répartition temporelle des mots les plus présents dans les annonces